8 research outputs found

    Type-Based Detection of XML Query-Update Independence

    Get PDF
    This paper presents a novel static analysis technique to detect XML query-update independence, in the presence of a schema. Rather than types, our system infers chains of types. Each chain represents a path that can be traversed on a valid document during query/update evaluation. The resulting independence analysis is precise, although it raises a challenging issue: recursive schemas may lead to infer infinitely many chains. A sound and complete approximation technique ensuring a finite analysis in any case is presented, together with an efficient implementation performing the chain-based analysis in polynomial space and time.Comment: VLDB201

    Analyse statique pour l'optimisation des mises à jour de documents XML temporels

    Get PDF
    Ces dernières années ont été marquées par l adoption en masse de XML comme format d échange et de représentation des données stockées sur le web. Cette évolution s est accompagnée du développement de langages pour l interrogation et la manipulation des données XML et de la mise en œuvre de plusieurs systèmes pour le stockage et le traitement des ces dernières. Parmi ces systèmes, les moteurs mémoire centrale ont été développés pour faire face à des besoins spécifiques d applications qui ne nécessitant pas les fonctionnalités avancées des SGBD traditionnels. Ces moteurs offrent les mêmes fonctionnalités que les systèmes traditionnels sauf que contrairement à ces derniers, ils nécessitent de charger entièrement les documents en mémoire centrale pour pouvoir les traiter. Par conséquent, ces systèmes sont limités quant à la taille des documents pouvant être traités. Dans cette thèse nous nous intéressons aux aspects liés à l évolution des données XML et à la gestion de la dimension temporelle de celles-ci. Cette thèse comprend deux parties ayant comme objectif commun le développement de méthodes efficaces pour le traitement des documents XML volumineux en utilisant les moteurs mémoire centrale. Dans la première partie nous nous focalisons sur la mise à jour des documents XML statiques. Nous proposons une technique d optimisation basée sur la projection XML et sur l utilisation des schémas. La projection est une méthode qui a été proposée dans le cadre des requêtes afin de résoudre les limitations des moteurs mémoire centrale. Son utilisation pour le cas des mises à jour soulève de nouveaux problèmes liés notamment à la propagation des effets des mises à jour. La deuxième partie est consacrée à la construction et à la maintenance des documents temporels, toujours sous la contrainte d espace. A cette contrainte s ajoute la nécessité de générer des documents efficaces du point de vue du stockage. Notre contribution consiste en deux méthodes. La première méthode s applique dans le cas général pour lequel aucune information n est utilisée pour la construction des documents temporels. Cette méthode est conçue pour être réalisée en streaming et permet ainsi le traitement de document quasiment sans limite de taille. La deuxième méthode s applique dans le cas où les changements sont spécifiés par des mises à jour. Elle utilise le paradigme de projection ce qui lui permet en outre de manipuler des documents volumineux de générer des documents temporels satisfaisant du point de vue du stockage.The last decade has witnessed a rapid expansion of XML as a format for representing and exchanging data through the web. In order to follow this evolution, many languages have been proposed to query, update or transform XML documents. At the same time, a range set of systems allowing to store and process XML documents have been developed. Among these systems, main-memory engines are lightweight systems that are the favored choice for applications that do not require complex functionalities of traditional DBMS such as transaction management and secondary storage indexes. These engines require to loading the documents to be processed entirely into main-memory. Consequently, they suffer from space limitations and are not able to process quite large documents. In this thesis, we investigate issues related to the evolution of XML documents and to the management of the temporal dimension for XML. This thesis consists of two parts sharing the common goal of developing efficient techniques for processing large XML documents using main-memory engines. The first part investigates the optimization of update for static XML documents. We have developed a technique based on XML projection, a method that has been proposed to overcome the limitations of main-memory engines in the case of querying. We have devised for a new scenario for projection allowing the propagation of the updates effects. The second of the thesis investigates building and maintaining time-stamped XML documents under space limitations. Our contribution consists in two methods. The first method can be applied in the general case where no restriction is made on the evolution of the XML documents. This method is designed to be performed in streaming and allows thus processing large documents. The second method deals with the case where the changes are specified by updates. It is based on the projection paradigm which it allows it for processing large documents and for generating time-stamped documents satisfactory from the point of view of storage. We provide a means to comparing time-stamped wrt space occupancy.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Types and constraints: from relational to XML data

    Get PDF
    The goal of this article is to show that, in the context of XML data processing, information conveyed by schema or XML types is a powerful component to deploy optimization methods. We focus on the one hand on recent work developed for optimizing query and update evaluation for main-memory engines and on the other hand on techniques for checking XML query-update independence. These methods are all based on static type analysis. The aim of the article is to show how types rank before constraints for XML data processing and the presentation of each method is kept informal

    Langages de requêtes temporels, extraction de connaissances temporelles et application aux flux de données

    No full text
    Une base de données temporelle est vue comme une suite finie de bases de données relationnelles classiques. Dans ce cadre, nous considérons tout d'abord un problème ouvert concernant l'expressivité relative de langages de requêtes temporels connus : le langage mu-TL d'une part (Vardi, 1988), et les langages T-FIXPOINT et T-WHILE d'autre part (Abiteboul et al., 1999). Nous montrons que ces langages sont équivalents pour la majorité des bases de données temporelles. Nous partons ensuite du constat que les langages temporels connus ne permettent pas d'extraire des informations qui sont elles-mêmes temporelles. Nous proposons des langages qui réalisent cette extraction, et nous en analysons les propriétés. Enfin, nous considérons le traitement des flux de données. Dans la littérature, deux paradigmes ont été introduit pour poser des requêtes continues sur les flux : les approches mono-données et les approches avec fenêtre. Nous formalisons ces deux paradigmes par des machines à états inspirées de la machine de Turing, et nous montrons que ces machines ont la même expressivité relative, sous certaines hypothèsesA temporal database can be seen as a finite sequence of classical relational databases. Within this framework, we first consider an open problem concerning the relative expressive power of some known temporal query languages: mu-TL (Vardi, 1988) on the one hand, and T-FIXPOINT and T-WHILE (Abiteboul et al., 1999) on the other hand. We prove that these languages are equivalent over most temporal databases. On the basis that known temporal query languages do not allow to extract temporal information, we then introduce and define query languages able to extract such information, and we analyse their properties. Finally, we consider data streams. In the literature, two paradigms have been introduced to continuously query streams: the single-data approach and the window approach. We formalize both paradigms by the way of Turing-like state machines, and we show that the machines have the same expressive power, under some hypothesis.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Bases de données, contraintes d'intégrité et logiques modales

    No full text
    DANS CETTE THESE, NOUS NOUS ETUDIONS L'UTILISATION DES SYSTEMES PAR TABLEAUX POUR LES LOGIQUES MODALES DANS LE CADRE DE PROBLEMES LIES AUX CONTRAINTES D'INTEGRITE DANS LESBASES DE DONNEES.DANS UNE PREMIERE PARTIE, NOUS UTILISONS UN SYSTEME PAR TABLEAUX, TRAITANT DIFFERENTES LOGIQUES MODALES DU PREMIER ORDRE (LMPO), DANS LE CADRE D'UNE METHODE PERMETTANT DE TESTER LA PRESERVATION DE CONTRAINTES D'INTEGRITE DYNAMIQUES DANS DES BASES DE DONNEES ORIENTEES OBJET. NOUS ASSOCIONS A CE SYSTEME UNE STRATEGIE DE RECHERCHE DE PREUVE QUE NOUS PROUVONS CORRECTE ET COMPLETE DANS SA VERSION NON BORNEE, CECI NOUS PERMET D'IMPLANTER UN DEMONSTRATEUR AUTOMATIQUE DETHEOREMES POUR LES LMPO K, K4, D, T ET S4. CE DEMONSTRATEUR EST RE-UTILISABLE POUR D'AUTRES APPLICATIONS NECESSITANT DE PROUVER LA VALIDITE DE FORMULES DES LMPO (VERIFICATION DE LOGICIEL,SYSTEME MULTI-AGENTS, ETC.).DANS UNE SECONDE PARTIE, NOUS ETUDIONS L'UTILISATION DE LA LOGIQUE MULTI-MODALE HYBRIDE (LMMH) EN TANT QUE FORMALISME D'EXPRESSION DE SCHEMA ET DE CONTRAINTES POUR LES DONNEES SEMI-STRUCTUREES.D'UNE PART, NOUS PROUVONS QUE LA LMMH PERMET DE CAPTURER DIRECTEMENT LA NOTION DE DONNEES SEMI-STRUCTUREES ET DONC DE CONTRAINTES SUR CES DONNEES. D'AUTRE PART, NOUS PROPOSONS UNE EXTENTION DES DTD PERMETTANT LE TYPAGE DES REFERENCES ET NOUS MONTRONS QUE CETTE NOUVELLE NOTION DE SCHEMAPEUT ETRE FORMALISEE EN TERMES DE FORMULES DE LA LMMH EXACTEMENT COMME UNE CONTRAINTE. EN ASSOCIANT UN SYSTEME PAR TABLEAUX POUR LA LMMH A CETTE APPROCHE, IL EST ALORS POSSIBLE DE TRAITER BEAUCOUP DE PROBLEMES CLASSIQUES DE BASES DE DONNEES (IMPLICATION DE CONTRAINTES, INCLUSION DE SCHEMAS, SATISFAISABILITE DE CONTRAINTES, ETC.).IN THIS THESIS, WE USE TABLEAUX SYSTEM FOR MODAL LOGICS IN ORDER TO SOLVE DATABASES PROBLEMS RELATED TO INTEGRITY CONSTRAINTS.IN FIRST PART, WE USE A TABLEAUX SYSTEM FOR FIRST ORDER MODAL LOGICS IN THE CONTEXT OF A METHOD TESTING INTEGRITY CONSTRAINTS PRESERVATION IN AN OBJECT ORIENTED DATABASE. WE DEVELOP A PROOF SEARCH STRATEGY AND WE PROVE THAT IT IS SOUND AND COMPLETE IN ITS UNBOUNDED VERSION. THIS LEADS TO THE IMPLEMENTATION OF A THEOREM PROVER FOR FIRST ORDER MODAL LOGICS K, K4, D, T AND S4. THE PROVER CAN ALSO BE USED FOR OTHER APPLICATIONS WHERE THE TEST OF VALIDITY OF FIRST ORDER MODAL LOGICS IS NEEDED (SOFTWARE VERIFICATION, MULTI-AGENTS SYSTEMS, ETC.).IN SECOND PART, WE STUDY HYBRID MULTI-MODAL LOGIC (HMML) AS A FORMALISM TO EXPRESS SCHEMAS AND INTEGRITY CONSTRAINTS FOR SEMI-STRUCTURED DATA. ON THE ONE HAND WE PROVE THAT HMML CAPTURES THE NOTION OF SEMI-STRUCTURED DATA AND CONSTRAINTS ON IT. ON THE OTHER HAND WE GENERALIZE THE NOTION OF SCHEMA, BY PROPOSING A DEFINITION OF SCHEMA WHERE REFERENCES ARE "WELL TYPED" (CONTRARY TO WHAT HAPPENS WITH DTDS), AND WE PROVE THAT THIS NEW NOTION CAN BE FORMALIZED BY SENTENCES OF HMML EXACTLY LIKE A CONSTRAINT IS. WHEN A TABLEAUX SYSTEM FOR THE HMML IS ADDED TO THIS APPROACH, SOME CLASSICAL DATABASE PROBLEMS CAN BE TREATED (CONSTRAINTS IMPLICATION, SCHEMAS INCLUSION, CONSTRAINTS SATISFIABILITY, ETC.).ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Méthode de Partitionnement pour le traitement distribué et parallèle de données XML.

    No full text
    Durant cette dernière décennie, la diffusion du format XML pour représenter les données générées par et échangées sur le Web a été accompagnée par la mise en œuvre de nombreux moteurs d évaluation de requêtes et de mises à jour XQuery. Parmi ces moteurs, les systèmes mémoire centrale (Main-memory Systems) jouent un rôle très important dans de nombreuses applications. La gestion et l intégration de ces systèmes dans des environnements de programmation sont très faciles. Cependant, ces systèmes ont des problèmes de passage à l échelle puisqu ils requièrent le chargement complet des documents en mémoire centrale avant traitement.Cette thèse présente une technique de partitionnement des documents XML qui permet aux moteurs mémoire principale d évaluer des expressions XQuery (requêtes et mises à jour) pour des documents de très grandes tailles. Cette méthode de partitionnement s applique à une classe de requêtes et mises à jour pertinentes et fréquentes, dites requêtes et mises à jour itératives.Cette thèse propose une technique d'analyse statique pour reconnaître les expressions itératives . Cette analyse statique est basée sur l extraction de chemins à partir de l'expression XQuery, sans utilisation d'information supplémentaire sur le schéma. Des algorithmes sont spécifiés, utilisant les chemins extraits par l étape précédente, pour partitionner les documents en entrée en plusieurs parties, de sorte que la requête ou la mise à jour peut être évaluée sur chaque partie séparément afin de calculer le résultat final par simple concaténation des résultats obtenus pour chaque partie. Ces algorithmes sont mis en œuvre en streaming et leur efficacité est validée expérimentalement.En plus, cette méthode de partitionnement est caractérisée également par le fait qu'elle peut être facilement implémentée en utilisant le paradigme MapReduce, permettant ainsi d'évaluer une requête ou une mise à jour en parallèle sur les données partitionnées.With the widespread diffusion of XML as a format for representing data generated and exchanged over the Web, main query and update engines have been designed and implemented in the last decade. A kind of engines that are playing a crucial role in many applications are main-memory systems, which distinguish for the fact that they are easy to manage and to integrate in a programming environment. On the other hand, main-memory systems have scalability issues, as they load the entire document in main-memory before processing. This Thesis presents an XML partitioning technique that allows main-memory engines to process a class of XQuery expressions (queries and updates), that we dub iterative , on arbitrarily large input documents. We provide a static analysis technique to recognize these expressions. The static analysis is based on paths extracted from the expression and does not need additional schema information. We provide algorithms using path information for partitioning the input documents, so that the query or update can be separately evaluated on each part in order to compute the final result. These algorithms admit a streaming implementation, whose effectiveness is experimentally validated. Besides enabling scalability, our approach is also characterized by the fact that it is easily implementable into a MapReduce framework, thus enabling parallel query/update evaluation on the partitioned data.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Types for Detecting XML Query-Update Independence

    No full text
    In the last decade XML became one of the main standards for data storage and exchange on the Web. Detecting XML query-update independence is crucial to efficiently perform data management tasks, like those concerning view-maintenance, concurrency control, and security. This thesis presents a novel static analysis technique to detect XML query- update independence, in the presence of a schema. Rather than types, the presented system infers chains of types. Each chain represents a path that can be traversed on a valid document during query/update evaluation. The resulting independence analysis is precise, although it raises a challenging issue: recursive schemas may lead to infer infinitely many chains. This thesis presents a sound and complete approximation tech- nique ensuring a finite analysis in any case, together with an efficient implementation performing the chain-based analysis in polynomial space and time.Pendant la dernière décennie, le format de données XML est devenu l'un des principaux moyens de représentation et d'échange de données sur le Web. La détection de l'indépendance entre une requête et une mise à jour, qui a lieu en absence d'impact d'une mise à jour sur une requête, est un problème crucial pour la gestion efficace de tâches comme la maintenance des vues, le contrôle de concurrence et de sécurité. Cette thèse présente une nouvelle technique d'analyse statique pour détecter l'indépendance entre requête et mise à jour XML, dans le cas où les données sont typées par un schéma. La contribution de la thèse repose sur une notion de type plus riche que celle employée jusqu'ici dans la littérature. Au lieu de caractériser les éléments d'un document XML utiles ou touchés par une requête ou mise à jour en utilisant un ensemble d'étiquettes, ceux-ci sont caractérisés par un ensemble de chaînes d'étiquettes, correspondants aux chemins parcourus pendant l'évaluation de l'expression dans un document valide pour le schéma. L'analyse d'indépendance résulte du développement d'un système d'inférence de type pour les chaînes. Cette analyse précise soulève une question importante et difficile liés aux schémas récursifs: un ensemble infini de chaînes pouvant être inférées dans ce cas, est-il possible et comment se ramener à une analyse effective donc finie. Cette thèse présente donc une technique d'approximation correcte et complète assurant une analyse finie. L'analyse de cette technique a conduit à développer des algorithmes pour une implantation efficace de l'analyse, et de mener une large série de tests validant à la fois la qualité de l'approche et son efficacité
    corecore